Hast du schonmal eine dieser KI-Apps ausprobiert, die nur anhand eines Fotos einer Pflanze ihre Art bestimmen? Klingt nach einem ziemlich coolen Werkzeug für Geographie-Studis, die sich für Biogeographie interessieren und im Pflanzenbestimmungskurs nicht aufgepasst haben. Ich finde Biogeo echt toll, habe aber vor einiger Zeit angefangen, mit solchen Apps herumzuspielen, um (1) mit ihnen Unfug zu machen und (2) wenn ich damit scheitere, beim Wandern die eine oder andere Pflanzenart zu bestimmen.

Nun ja, zum Glück habe ich es geschafft, Unfug damit zu machen, denn beim Wandern mit 20 kg Rucksack habe ich nur zu selten die Geduld, das Handy zu zücken, überlebenswichtigen Akku zu verschwenden, und mich zum Fotografieren zu bücken während mein Wanderkumpan Stefan steten Schrittes davontrottet…

Einem [Enzian](https://de.wikipedia.org/wiki/Enziane) in den Pyrenäen auf der Spur. (c) Stefan Lüdke 2021.

Einem Enzian in den Pyrenäen auf der Spur. (c) Stefan Lüdke 2021.

So blieb es also beim Unfug und den Lektionen, die man daraus über Künstliche Intelligenz und Maschinelles Lernen lernen kann.

Das fing wohl damit an, dass ich als Allererstes die für etwa $5 erstandene App namens Plant Identifier 1.4 an unserem Lehrstuhl-Weihnachtsbaum aus Plastik ausprobierte, mit goldenen und roten Schmuck mitten im Bild. Ohne zu Murren spuckte die App aus, dass es sich um einen Gemeinen Wacholder handelte – mit goldenen, faustgroßen Früchten, echt jetzt? Oder um eine Douglasie. Oder dann doch eine Eibe, jetzt aber wirklich, mit einer accuracy von exakt 67,21%, jawoll.

Der künstliche Lehrstuhl-Weihnachtsbaum ist also eine Gemeine Eibe?

Der künstliche Lehrstuhl-Weihnachtsbaum ist also eine Gemeine Eibe?

Mit der Zeit kamen Versuche an Plastikpflanzen in rumänischen Hotels dazu – z.B. einem prächtigen Madeira-Natternkopf (accuracy: 77,52%, wow!), jedenfalls behauptete das die App.

Erst nach den Weihnachtstagen 2021 ergriff mich jedoch ein wenig wissenschaftlicher Ehrgeiz und ich sah mir die Fähigkeiten der App ein bisschen systematischer an… anhand unseres dekorierten Weihnachtsbaums, einer Nordmanntanne.

Um bei allem Jux fair zu sein, sei gleich hier angemerkt: Ich bin eigentlich begeistert von dieser App und anderen, die ich nur mal kurz ausprobiert habe, namentlich Flora Incognita von der TU Ilmenau und PlantNet von einem vorwiegend französischen Forschungskonsortium. Sie alle liefern erstaunlich gute Ergebnisse. Ich beschränke mich hier übrigens auf Plant Identifier 1.4 für Android von TAPCURATE, weil es irre einfach zu bedienen ist: Foto machen, fertig. Für die Bedienung der PlantNet-App bin ich dagegen zu doof, und Flora Incognita ist mir zu akademisch, ich hätte im Gelände keine Lust, in einen Dornbusch hineinzukriechen, um seine Rinde formatfüllend zu fotografieren, und zwar bitte auf Brusthöhe. (Okay, ich glaube das könnte man überspringen.) Eine aktuelle Übersicht über ähnliche Apps gibt es bei lifewise.com.

Eine semi-wissenschaftliche Analyse

Also, zur semi-wissenschaftlichen Inspektion von Plant Identifier 1.4 zur Identifikation einer Nordmanntanne unter realen, Geländegerödel-Bedingungen im nachweihnachtlichen Wohnzimmer. Hierzu gehören unterschiedliche Beleuchtungsverhältnisse (Lichterkette an, draußen dunkel; Lichterkette aus, Sonne scheint rein), variierende Motive (mit Kugeln, Engeln, … und äh… Zweigen und Stamm). Das klingt zunächst unfair, aber wer schonmal in einem echten, dichten Waldbestand war, der weiß, dass dort Zweige von Nachbarbäumen hineinragen können, Unterwuchs, Vogelnester, Stacheldrahtzaun. Auch hat sich die App nie über die Qualität meiner Bilder beschwert. – Also bitte nicht über meine suboptimalen Studienbedingungen klagen.

{{% callout warning %}}

Hilfe! Mein Weihnachtsbaum ist ein Feder-Spargel!

{{% /callout %}}

So nahm ich also unter den fragenden Blicken meiner Familie nach und nach 69 Fotos dieser stolzen Nordmanntanne (Abies nordmanniana) auf, und sieh da: es handelt sich in Wirklichkeit um einen Feder-Spargel. Nein, Granatapfel. Oder doch eine peruanische Cantuta? Vielleicht eine Japanische Stechpalme oder eine neukaledonische Araukarien-Art? All das wurde auch ausgespuckt, doch allen voran die Nordmann-Tanne (48%) und die ähnliche (aber in Deutschland nur selten als Weihnachtsbaum genutzte) Edel-Tanne (25%).

Hier eine Übersicht der Ergebnisse für die dekorierte Nordmann-Tanne:

Art laut App Häufigkeit Mittlere accuracy Maximale accuracy
Nordmann-Tanne (Abies nordmanniana) 33 37.32 70.41
Edel-Tanne (Abies procera) 17 34.16 62.74
Hinoki-Scheinzypresse (Chamaecyparis obtusa) 6 29.22 53.07
Neuguinea-Araukarie (Araucaria cunninghamii) 2 34.42 41.32
Araucaria columnaris (Araucaria columnaris) 2 13.62 25.65
Feder-Spargel (Asparagus setaceus) 1 32.44 32.44
Pracht-Tanne (Abies magnifica) 1 35.77 35.77
Granatalpfel (Punica granatum) 1 40.28 40.28
Cantua (Cantua buxifolia) 1 41.97 41.97
Norfolk-Tanne (Araucaria heterophylla) 1 13.84 13.84
Beschuppter Wacholder (Juniperus squamata) 1 17.17 17.17
Japanische Stechpalme (Ilex crenata) 1 21.46 21.46
Purpur-Tanne (Abies amabilis) 1 56.42 56.42
Gemeine Eibe (Taxus baccata) 1 24.40 24.40

Adversarial attacks

Wie würde es weitergehen, wenn ich weiter drauf los fotografieren würde? Oder wenn ich ein bisschen mit dem Schmuck spielen würde? Würde irgendwann auch mal ein Foto als Säulenkaktus oder als Gänseblümchen klassifiziert werden? Kann ich das vielleicht sogar durch gezielte, kaum merkliche Bildmanipulation herbeiführen?

Vielleicht. So etwas nennt man in der KI-Forschung eine adversarial attack, also einen “feindlichen Angriff”.

{{% callout warning %}}

Hausaufgabe: Eine adversarial attack auf die Plant-Identifier-App durchführen, durch die der Weihnachtsbaum als Säulenkaktus oder Gänseblümchen klassifiziert wird.

{{% /callout %}}

Fluch und Segen von Kontextinformationen in der KI

Ob der Weihnachtsbaum-Schmuck nun dabei behilflich oder eher hinderlich war, ausgerechnet zwei Weihnachtsbaumarten so weit oben zu platzieren, lässt sich nur spekulieren. Für eine Gegenprobe ohne Schmuck ist es leider inzwischen zu spät.

Manche Apps verwenden übrigens auch Kontextinformationen wie zum Beispiel Standortinformationen, um bei Wildpflanzen exotische Arten auszuschließen; allerdings besteht dabei die Gefahr, tatsächlich vorhandene eingeschleppte Arten nicht zu erkennen, weil der Algorithmus sie nicht erwartet – das kann natürlich auch uns Menschen passieren. Solche potenziell nützlichen Informationen über die a priori-Wahrscheinlichkeit einer Art in einem bestimmten Kontext können also auch den Blick auf Neues versperren und sind somit ein zweischneidiges Schwert: sie sind Wissensvorsprung und Vorurteil zugleich.

Mit Ensemble-Methoden Klassifikationen verbessern

Nun waren die mit nur einem Foto erzielten Ergebnisse schon sehr ermutigend, auch wenn die Fehlklassifikationen reichlich Anlass zu Spott geben. Lassen sich die Ergebnisse verbessern, indem man die Ergebnisse für mehrere Fotos kombiniert? Welche Strategie ist am erfolgreichsten?

Ein im Maschinellen Lernen verwendeter Ansatz besteht darin, auf der Grundlage mehrerer Klassifikationsergebnisse eine Mehrheitsentscheidung zu treffen. Diese Strategie ist die Grundlage äußerst erfolgreicher Verfahren wie des 2001 von Leo Breiman entwickelten Random Forest. Doch anstelle eines reinen Mehrheitsentscheids wäre es auch denkbar, die einzelnen Klassifikationsergebnisse nach ihrer geschätzten Qualität (accuracy) zu gewichten, uneindeutige Fotos somit weniger stark zu berücksichtigen. Und schließlich könnte man auch einfach das Ergebnis wählen, das die höchste accuracy erzielt hat (“maximalselektiert”).

Mit der Weihnachtsbaum-Bilddatenbank lassen sich diese Strategien vergleichen: Wir ziehen zufällig z.B. fünf Fotos (bzw. deren Klassifikationsergebnisse) aus der Datenbank und treffen einen Mehrheitsentscheid nach der gewählten Methode. Und das kommt dabei heraus:

Zunahme der Klassifikationsgüte mit zunehmender Anzahl verwendeter Fotos für unterschiedliche Ensemble-Verfahren.

Zunahme der Klassifikationsgüte mit zunehmender Anzahl verwendeter Fotos für unterschiedliche Ensemble-Verfahren.

Mit nur fünf Fotos lassen sich somit beachtliche Verbesserungen erzielen. Wenn unsere App in der Lage wäre, aus einer Videosequenz eine Reihe unterschiedlicher Fotos der gleichen Pflanze zu extrahieren, könnte man mühelos 10, 20 oder mehr Fotos von unterschiedlichen Pflanzenteilen aufnehmen und damit zumindest bei meinem Weihnachtsbaum eine Erfolgsquote von 90% erzielen. Der gewichtete und ungewichtete Mehrheitsentscheid sind dabei vielversprechender als die Maximalselektion.

Diese Strategien lassen noch weiter perfektionieren – so fordern manche Apps Fotos bestimmter Pflanzenteile (Blätter, Stamm, Gesamtbild) an, wodurch sich sicherlich bereits mit einer geringeren Anzahl Fotos solche Verbesserungen erzielen lassen. Allerdings geht das zu Lasten der Nutzererfahrung – ich jedenfalls möchte in meiner Freizeit nur ungerne die Wünsche meiner App nach speziellen Fotos befriedigen.

Was haben wir gelernt?